智能论文笔记

Occupancy Planes for Single-view RGB-D Human Reconstruction

Xiaoming Zhao , Yuan-Ting Hu , Zhongzheng Ren , Alexander G. Schwing

分类：计算机视觉 | 人工智能

2022-08-04

具有隐式函数的单视RGB-D人重建通常以每点分类为例。具体而言，首先将相机视图中的一组3D位置投影到图像上，并随后针对每个3D位置提取相应的功能。然后，每个3D位置的特征用于独立分类，无论相应的3D点在观察到的对象内还是外部。此过程导致了亚最佳结果，因为仅通过提取的特征隐式地考虑了相邻位置的预测之间的相关性。为了获得更准确的结果，我们提出了占用平面（OPLANES）表示，该表示可以使单视RGB-D人类重建作为对平面上的占用预测，这些预测切成摄像机的视图。这种表示比体素电网提供了更大的灵活性，并使比每点分类更好地利用相关性。在具有挑战性的S3D数据上，我们观察一个基于Oplanes表示的简单分类器，以产生引人注目的结果，尤其是在由于其他对象和部分可见性引起的部分遮挡的困难情况下，这尚未通过先前的工作解决。

translated by 谷歌翻译

Initialization and Alignment for Adversarial Texture Optimization

Xiaoming Zhao , Zhizhen Zhao , Alexander G. Schwing

分类：计算机视觉 | 人工智能

2022-07-28

尽管从图像和视频数据中恢复几何形状在计算机视觉中受到了很多关注，但捕获给定几何形状纹理的方法不那么成熟。具体而言，纹理生成的经典方法通常假设干净的几何形状和合理的一致图像数据。尽管最近的方法，例如，对抗性纹理优化，更好地处理从手持设备获得的低质量数据，但我们发现它们仍然经常挣扎。为了提高鲁棒性，特别是最近的对抗性纹理优化，我们开发了明确的初始化和一个对齐程序。由于将几何形状绘制到纹理图和基于硬分配的初始化，因此它处理了复杂的几何形状。它通过将快速的图像对齐整合到纹理细化优化中来处理几何和图像的错位。我们在11个场景的数据集中证明了纹理生成的功效，总共有2807帧，观察7.8％和11.1％的感知和清晰度测量值相对改善。

translated by 谷歌翻译

Generative Multiplane Images: Making a 2D GAN 3D-Aware

Xiaoming Zhao , Fangchang Ma , David Güera , Zhile Ren , Alexander G. Schwing , Alex Colburn

分类：计算机视觉 | 人工智能

2022-07-21

真正需要什么才能使现有的2D GAN 3D了解？为了回答这个问题，我们会尽可能少地修改经典的gan，即styleganv2。我们发现只有两次修改是绝对必要的：1）一个多层图像样式生成器分支，该分支在其深度上产生一组Alpha地图；2）姿势条件歧视者。我们将生成的输出称为“生成多层图像”（GMPI），并强调其渲染不仅是高质量的，而且保证是持续的，这使GMPIS与许多先前的作品不同。重要的是，可以动态调整Alpha地图的数量，并且在训练和推理之间可能有所不同，减轻记忆问题，并在不到半天的时间内以1024^2美元的分辨率在不到半天的时间内快速训练GMPIS。我们的发现在三个具有挑战性和常见的高分辨率数据集（包括FFHQ，AFHQV2和METFACE）中是一致的。

translated by 谷歌翻译

XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model

Ho Kei Cheng , Alexander G. Schwing

分类：计算机视觉

2022-07-14

我们提出XMEM，这是一种由Atkinson-Shiffrin Memory模型启发的统一功能存储器存储的长视频的视频对象分割体系结构。视频对象分割的先前工作通常仅使用一种类型的功能内存。对于超过一分钟的视频，单个功能内存模型紧密地链接了内存消耗和准确性。相比之下，遵循Atkinson-Shiffrin模型，我们开发了一种结构，该体系结构结合了多个独立但深厚的特征记忆存储：快速更新的感觉存储器，高分辨率的工作记忆和紧凑的长期记忆。至关重要的是，我们开发了一种记忆增强算法，该算法通常将主动使用的工作记忆元素合并为长期记忆，从而避免记忆爆炸并最大程度地减少长期预测的性能衰减。结合新的记忆阅读机制，XMEM在与最先进的方法（不适用于长视频上使用）相当的长视频时，XMEM大大超过了长效数据集上的最先进性能数据集。代码可从https://hkchengrex.github.io/xmem获得

translated by 谷歌翻译

Asking for Knowledge: Training RL Agents to Query External Knowledge Using Language

Iou-Jen Liu , Xingdi Yuan , Marc-Alexandre Côté , Pierre-Yves Oudeyer , Alexander G. Schwing

分类：人工智能 | 自然语言处理

2022-05-12

为了解决艰巨的任务，人类提出问题以从外部来源获取知识。相反，经典的加强学习者缺乏这种能力，并且常常诉诸探索性行为。这会加剧，因为很少的当今环境支持查询知识。为了研究如何通过语言教授代理来查询外部知识，我们首先介绍了两个新环境：基于网格世界的Q-babyai和基于文本的Q-Textworld。除了物理互动外，代理还可以查询专门针对这些环境的外部知识源来收集信息。其次，我们提出了“寻求知识”（AFK）代理，该代理学会生成语言命令以查询有助于解决任务的有意义的知识。 AFK利用非参数记忆，指针机制和情节探索奖金来解决（1）无关的信息，（2）一个较大的查询语言空间，（3）延迟奖励有意义的查询。广泛的实验表明，AFK代理在具有挑战性的Q-Babyai和Q-Textworld环境方面优于最近的基线。

translated by 谷歌翻译

Mask2Former for Video Instance Segmentation

Bowen Cheng , Anwesa Choudhuri , Ishan Misra , Alexander Kirillov , Rohit Girdhar , Alexander G. Schwing

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-20

我们发现Mask2Former还可以在视频实例分段上实现最先进的性能，而无需修改架构，丢失甚至培训管道。在本报告中，我们通过直接预测3D分段卷来显示通用图像分割体系结构通过直接预测3D分段卷来概括到视频分段。具体而言，Mask2Former在Youtubevis-2021上为Youtubevis-2019和52.6 AP设置了新的60.4 AP最先进的。鉴于其在图像分割中的多功能性，我们认为蒙版2格相符也能够处理视频语义和Panoptic分割。我们希望这将使最先进的视频分段研究更可访问，并更加关注设计通用图像和视频分段架构。

translated by 谷歌翻译

Class-agnostic Reconstruction of Dynamic Objects from Videos

Zhongzheng Ren , Xiaoming Zhao , Alexander G. Schwing

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-03

我们介绍重做，一个类无话的框架来重建RGBD或校准视频的动态对象。与事先工作相比，我们的问题设置是更真实的，更具挑战性的三个原因：1）由于遮挡或相机设置，感兴趣的对象可能永远不会完全可见，但我们的目标是重建完整的形状; 2）我们的目标是处理不同的对象动态，包括刚性运动，非刚性运动和关节; 3）我们的目标是通过一个统一的框架重建不同类别的对象。为了解决这些挑战，我们开发了两种新模块。首先，我们介绍了一个规范的4D隐式功能，它是与聚合的时间视觉线索对齐的像素对齐。其次，我们开发了一个4D变换模块，它捕获对象动态以支持时间传播和聚合。我们研究了重做在综合性RGBD视频数据集风帆-VOS 3D和Deformingthings4d ++上的大量实验中的疗效，以及现实世界视频数据3DPW。我们发现重做优于最先进的动态重建方法。在消融研究中，我们验证每个发达的组件。

translated by 谷歌翻译

Masked-attention Mask Transformer for Universal Image Segmentation

Bowen Cheng , Ishan Misra , Alexander G. Schwing , Alexander Kirillov , Rohit Girdhar

分类：计算机视觉 | 人工智能 | 机器学习

2021-12-02

图像分割是关于使用不同语义的分组像素，例如类别或实例成员身份，其中每个语义选择定义任务。虽然只有每个任务的语义不同，但目前的研究侧重于为每项任务设计专业架构。我们提出了蒙面关注掩模变压器（Mask2Former），这是一种能够寻址任何图像分段任务（Panoptic，实例或语义）的新架构。其关键部件包括屏蔽注意，通过限制预测掩模区域内的横向提取局部特征。除了将研究工作减少三次之外，它还优于四个流行的数据集中的最佳专业架构。最值得注意的是，Mask2Former为Panoptic semonation（Coco 57.8 PQ）设置了新的最先进的，实例分段（Coco上50.1 AP）和语义分割（ADE20K上的57.7 miou）。

translated by 谷歌翻译

Per-Pixel Classification is Not All You Need for Semantic Segmentation

Bowen Cheng , Alexander G. Schwing , Alexander Kirillov

分类：计算机视觉

2021-07-13

现代方法通常将语义分割标记为每个像素分类任务，而使用替代掩码分类处理实例级分割。我们的主要洞察力：掩码分类是足够的一般，可以使用完全相同的模型，丢失和培训过程来解决语义和实例级分段任务。在此观察之后，我们提出了一个简单的掩模分类模型，该模型预测了一组二进制掩码，每个模型与单个全局类标签预测相关联。总的来说，所提出的基于掩模分类的方法简化了语义和Panoptic分割任务的有效方法的景观，并显示出优异的经验结果。特别是，当类的数量大时，我们观察到掩码形成器优于每个像素分类基线。我们的面具基于分类的方法优于当前最先进的语义（ADE20K上的55.6 miou）和Panoptic Seation（Coco）模型的Panoptic Seationation（52.7 PQ）。

translated by 谷歌翻译

Statistical Design and Analysis for Robust Machine Learning: A Case Study from COVID-19

Davide Pigoli , Kieran Baker , Jobie Budd , Lorraine Butler , Harry Coppock , Sabrina Egglestone , Steven G. Gilmour , Chris Holmes , David Hurley , Radka Jersakova

分类：机器学习

2022-12-15

Since early in the coronavirus disease 2019 (COVID-19) pandemic, there has been interest in using artificial intelligence methods to predict COVID-19 infection status based on vocal audio signals, for example cough recordings. However, existing studies have limitations in terms of data collection and of the assessment of the performances of the proposed predictive models. This paper rigorously assesses state-of-the-art machine learning techniques used to predict COVID-19 infection status based on vocal audio signals, using a dataset collected by the UK Health Security Agency. This dataset includes acoustic recordings and extensive study participant meta-data. We provide guidelines on testing the performance of methods to classify COVID-19 infection status based on acoustic features and we discuss how these can be extended more generally to the development and assessment of predictive methods based on public health datasets.

translated by 谷歌翻译